Tesseract Ayrintili Yapilandirma

OCR söz konusu olduğunda, belgeden metin çıkarmaya yaklaşma ve esneklik seçeneklerine sahip olmak çok önemlidir. OCR yapmak maliyetli olduğundan, belirli belgelere uygulanacak yöntemleri ve performansı kontrol edebilmek, OCR kullanan uygulamanın ölçeklenebilir ve verimli olmasını sağlamak için gereklidir.

IronTesseract, geliştiricilere ayarlamalar yapmaları için farklı özellikler ve seçenekler sunar. Örneğin, belirli karakterleri kara listeye almak veya belgeler içindeki barkodları okumak ya da hatta OCR motorunun sayfayı nasıl okuduğunu belirlemek gibi, tüm bunlar ve daha fazlası IronTesseract sınıfı ile yapılabilir.

IronTesseract sınıfını başlattıktan sonra, hemen değiştirmek isteyeceğimiz birkaç önemli seçenek hemen kullanılabilir hale gelir. Yapılandırılacak ilk özellik Language olacaktır. Varsayılan olarak dil İngilizce'dir; ancak, IronTesseract 125 dile kadar destekler ve hatta UseMultipleLanguages yöntemiyle birden fazla dile izin verir. Daha fazla ayrıntı için buraya bakın.

Yapılandırmak istediğimiz ikinci özellik TesseractConfiguration sınıfıdır. Bu sınıf ile Tesseract motorunun potansiyel metin bloklarını taramak için belgeyi nasıl taradığını değiştirebiliriz.

  • İlk olarak, dili OcrLanguage.EnglishBest atayarak Tesseract Motorunun dilini değiştiriyoruz. Bu varyant, OCR kullanarak şekil tanıma stratejileri olan bir LSTM ve bir OEM'i birleştirir; bu iki stratejinin birleşimi, OCR'nin daha doğru sonuçlar üretmesini sağlar.
  • Daha sonra, OCR işlemi sırasında barkodları okuma işlemini önlemek için ReadBarCodes 'i false olarak ayarlıyoruz.

Belgedeki belirli karakterleri kara listeye alarak çıkarmak istediğimiz karakterleri daha fazla özelleştirip belirtiyoruz; bu örnekte, tırnak işaretleri, aksan veya caret içeren karakterlerin metin çıkarmasını önlemek için kara listeye alıyoruz. Son olarak, şimdilik paralel işlemeyi devre dışı bırakmak için TesseractVariables["tessedit_parallelize"] 'i false olarak ayarlıyoruz. Bu sonuncusu gerçekten güçlü bir özelliktir çünkü doğrudan Tesseract Motoru ile iletişim kuruyor. Burada, geliştiricilerin OCR uygularken Tesseract Motorunun davranışını daha da özelleştirmesine olanak tanıyan TesseractVariables 'lerin tam listesi bulunmaktadır.

Daha Fazla IronTesseract Konfigürasyon Seçeneğini Keşfedin

Başlamaya Hazır mısınız?
Nuget İndirmeler 5,585,834 | Sürüm: 2026.4 just released
Still Scrolling Icon

Hala Kaydiriyor musunuz?

Hızlı bir kanit mi istiyorsunuz? PM > Install-Package IronOcr
örnekleri çalıştır resminizin aranabilir metne donuşünü izleyin.